智能论文笔记

在本文中，我们研究了DNN培训中量化的影响。我们假设重量量化是正则化的一种形式，正则化的量与量化水平（精度）相关。我们通过提供分析研究和经验结果来证实我们的假设。通过将重量量化为重量噪声的一种形式，我们探讨了该噪声在训练时如何通过网络传播。然后，我们表明该噪声的大小与量化水平相关。为了确认我们的分析研究，我们在本文中进行了广泛的实验列表，其中我们表明，在各种数据集中，在各种视觉任务和模型中可以看到量化的正则化效果。基于我们的研究，我们建议8位量化在不同的视觉任务和模型中提供了一种可靠的正则化形式。

translated by 谷歌翻译

深度学习模型的性能优化是通过自动架构搜索或两者的组合进行的。另一方面，它们的性能很大程度上取决于目标硬件以及模型的成功培训。我们建议使用多维帕累托边境来重新定义候选深度学习模型的效率度量，在这种模型中，训练成本，推理潜伏期和准确性等几个变量在定义主导模型中起着相对的作用。此外，引入了多维帕累托前沿的随机版本，以减轻不同实验设置中深度学习模型的准确性，延迟和吞吐量的不确定性。可以将这两种互补方法组合起来，以对深度学习模型进行客观的基准测试。我们提出的方法应用于经过Imagenet数据训练的广泛的深层图像分类模型。我们的方法将竞争变量与随机性质结合在单个相对效率度量中。这允许对深度学习模型进行排名，这些模型在不同的硬件上有效运行，并将推理效率与培训效率相结合。

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

经过一段时间的减少，对单词一致性的兴趣再次增加，因为它们在类型学研究，跨语言注释投影和机器翻译等领域的有用性中再次增加。通常，对齐算法仅使用bitext，并且不利用许多平行语料库是多面关系的事实。在这里，我们通过考虑所有语言对，计算多种语言对之间的高质量单词对齐。首先，我们创建一个多平行单词对齐图，并将所有双语单词对齐对在一个图中。接下来，我们使用图形神经网络（GNN）来利用图形结构。我们的GNN方法（i）利用有关输入词的含义，位置和语言的信息，（ii）合并了来自多个并行句子的信息，（iii）添加并删除了初始对齐的边缘，并且（iv）产生了预测可以概括训练句子的模型。我们表明，社区检测为多平行单词对齐提供了有价值的信息。我们的方法在三个单词分配数据集和下游任务上的先前工作优于先前的工作。

translated by 谷歌翻译